Designgewicht
Anpassungsgewichte
Gesamtgewicht
Gesamtgewicht = Design-Gewicht * Anpassungsgewicht
Ein Survey-Gewicht ist ein Wert, der jeweils einer Beobachtung zugeordnet ist.
Oft werden Gewichte auf die Anzahl der Fälle oder die Populationsgröße normiert.
Ein Gewicht w kann kleiner , gleich oder größer als 1 sein.
Ein Design-Gewicht ist bei der Schätzung proportional zum relativen Beitrag eines Befragten.
Es ist proportional zum Inversen der Inklusionswahrscheinlichkeit.
Die Größe einer speziellen Gruppe wird durch die Summe ihrer Gewichte geschätzt.
Zahlen des ADM
http://www.bibb.de/de/62622.htm
https://www.destatis.de/DE/ZahlenFakten/GesellschaftStaat/Bevoelkerung/Mikrozensus.html
https://www.destatis.de/DE/Publikationen/Qualitaetsberichte/Bevoelkerung/Mikrozensus2013.html
http://www.europeansocialsurvey.org
Der Auswahlrahmen (engl. sampling frame) ist eine Liste von Einheiten (engl. sampling units), aus dem die Stichprobe gezogen wird und über den man Zugang zu den Untersuchungseinheiten erhält (z.B. das Telefonbuch). - Die über den Auswahlrahmen erreichbaren Einheiten bilden die Auswahlgesamtheit.
Idealerweise enthält der Auswahlrahmen genau alle Einheiten der Untersuchungsgesamtheit. In der Praxis ist das aber selten der Fall.
Ist ein Element der Grundgesamtheit im Auswahlrahmen bzw. der Auswahlgesamtheit nicht enthalten, gehört es zum „undercoverage“ , d.h. zu einem Fehlbestand. Ein Beispiel wären die Personen, die nicht im Telefonfonbuch stehen.
Gehört ein Element des Auswahlrahmens nicht zur Grundgesamtheit, spricht man von „overcoverage“, d.h. von Karteileichen oder Überhöhung. Ein Beispiel wären Geschäftsnummern im Telefonbuch.
Auswahlgesamtheit
## Population: 1 2 4 4 7 7 7 8
## 1. Stichprobe (n=4):7787
## 2. Stichprobe (n=4):7227
## 3. Stichprobe (n=4):8747
## 4. Stichprobe (n=4):8477
## 5. Stichprobe (n=4):2847
## 6. Stichprobe (n=4):7484
## 7. Stichprobe (n=4):7274
## 8. Stichprobe (n=4):2447
Beispiel aus Lohr
| state | region | income |
|---|---|---|
| nc | 1 | 46.84389 |
| nc | 1 | 678.59072 |
| nc | 1 | 878.58315 |
| nc | 1 | 764.14604 |
| nc | 1 | 808.08004 |
| nc | 1 | 244.96278 |
| state nc | state sc | |
|---|---|---|
| region 1 | 100 | 30 |
| region 2 | 50 | 40 |
| region 3 | 15 | 0 |
Stratfied Sampling
Horvitz-Thompson estimator is identical to the usual stratified estimator
| state | acres92 | acres87 | region | weight |
|---|---|---|---|---|
| NE | 297326 | 332862 | NC | 10.23301 |
| IN | 124694 | 131481 | NC | 10.23301 |
| OH | 246938 | 263457 | NC | 10.23301 |
| MI | 206781 | 190251 | NC | 10.23301 |
| WI | 78772 | 85201 | NC | 10.23301 |
| MN | 210897 | 229537 | NC | 10.23301 |
Beispiel Lohr agstrat.dat Strata: North Central, Northeast, South, West
The Horvitz-Thompson estimator for the total T_y is defined by
Horvitz Thompson
It is unbiased if all inclusion probabilities are positive. The variance of the Horvitz-Thompson estimator is given by:
Variance HT
If all inclusion probabilities of second order pi_ij are positive we have:
VarianceHT2
Formel 1
Cell Weights
The iterative proportional fitting algorithm (IPF) is an iterative algorithm for estimating cell values of a contingency table such that the marginal totals remain fixed and the estimated table decomposes into an outer product.
Deming and Stephan(1940)
Non Response
This is referred to as nonresponse.
If a respondent answers some but not all the items, these missing are referred to as item non-response.
Non-response is a very serious problem and the treatment of which requires modeling assumptions.
Therefore, it may be easier to deal with non-response in the framework of model-based inference.
Usually, weighting procedures are applied for treating unit non-response and imputation methods for item non-response. Calibration estimators are used very often nowadays to get a grip on the non-response problem.